seo - گوگل چگونه نتایج را جمع کرده و امتیازدهی می¬کند - پیمایش و اندیس گذاری

    • گوگل چگونه نتایج را جمع کرده و امتیازدهی می¬کند - پیمایش و اندیس گذاری
    • یکی از رایج ترین سوالاتی که معمولا شنیده می­شود این است که گوگل چگونه تصمیم می­گیرد چه نتایجی در بالای لیست بیاید و کدام یک امتیاز پایین تری داشته باشند. در اینجا توضیحاتی ابتدایی از مهندسی کیفیت Matt Cutts ارائه شده که چگونگی پیمایش و اندیس گذاری و نهایتاً امتیازدهی نتایج جست و جو را تعیین می­کند.

      1-1- پیمایش و اندیس گذاری

      قبل از اینکه شما یک صفحه وب شامل نتایج جست و جوی گوگل ببینید ، چیزهای زیادی باید اتفاق بیافتد. گام اول ما پیمایش و اندیس گذاری بیلیون­ها صفحه­ی وب است. این کار توسط GoogleBot یا عنکبوت انجام می­شود که به سرویس دهنده­های و ب اطراف جهان برای بازیابی اسناد متصل است. برنامه­ی پیمایش واقعاً وب را نمی­گردد. در اصل از سرویس دهنده­ی وب می­خواهد تا صفحات وب مشخصی را برگرداند. سپس این صفحات را به دنبال فوق پیوند ها می­پیماید ، که اسناد جدیدی را که به همان روش بازیابی شده اند را بر می­گرداند.

      عنکبوت ( خزنده ) به هر صفحه­ی بازیابی شده عددی می­دهد به طوریکه به صفحه ای که بازیابی شده اشاره دارد. در نتیجه­ی پیمایش، مجموعه­ی عظیمی از اسناد جمع آوری می­شود ولی این اسناد هنوز قابل جست و جو نیستند. بدون اندیس اگر بخواهید اصطلاحی مثل \"جنگ سرد\" را پیدا کنید ، سرویس دهنده باید هر بار که جست و جو می­کنید ، متن کامل تک تک اسناد را بخواند تا این اصطلاح را پیدا کند.

      بنابراین گام بعدی ساخت یک اندیس است. برای این منظور داده­های پیمایش برعکس می­شوند.

      به جای پیمایش برای هر کلمه در هر سند داده­ها را برای لیست کردن هر سند که شامل یک کلمه­ی معین است به کار می­گیریم.

      مثلا کلمه­ی \"جنگ\" ممکن است در اسناد 3 ، 8 ، 22 ، 56 ، 68 و 92 باشد. در حالی که کلمه­ی \"سرد\" در اسناد 2 ، 8 ، 15 ، 22 ، 68 و 77 است. هنگامی که اندیس ساخته می­شود آماده ایم که اسناد را رتبه بندی کنیم و تعیین کنیم تا چه اندازه به موضوع جست و جو مرتبط هستند. فرض کنید شخصی وارد گوگل شده و عبارت \"جنگ سرد\" را وارد می­کند. برای نمایش و امتیازدهی نتایج 2 کار باید انجام دهیم:

      1. مجموعه صفحاتی که حاوی پرس و جوی کاربر هستند را پیدا کنید.

      2. صفحات مطابق را برای پیدا کردن میزان انطباق رتبه بندی کنید.

      حقه­ی جالبی برای افزایش سرعت گام  اول در نظر گرفته شده است : به جای ذخیره­ی کل اندیس روی یک کامپیوتر قدرتمند ، گوگل از صدها کامپیوتر برای انجام کار استفاده می­کند و چون کار بین چندین ماشین تقسیم می­شود ، پاسخ سریع تر برگردانده می­شود.

      برای تشریح این مسئله بیایید فرض کنیم یک 30 صفحه ای داریم با یک اندیس. اگر شخص بخواهد چند بخش از اطلاعات را در اندیس ذخیره کند هر جست و جو حداقل چند ثانیه طول می­کشد. حالا اگر هر صفحه از اندیس را به هر شخص دهیم چه می­شود ؟ 30 نفر می­توانند سریع تر جست و جو را انجام دهند تا اینکه کل اندیس را یک نفر به تنهایی بگردد.

      هم چنین گوگل برای پیدا کردن سریع اسناد منطبق با پرس و جو ، داده­هایش را بین بسیاری از ماشین­ها تقسیم می­کند. چگونه صفحاتی که حاوی پرس و جوی کاربر هستند را پیدا کنیم ؟ بیایید به مثال \"جنگ سرد\" بر گردیم. کلمه­ی سرد در اسناد 3 ، 8 ، 22 ، 56 ، 68 و 92 بود. اکنون بیایید کلمات را جداگانه بنویسیم و محل هر دو کلمه را بیابیم :

      جدول (1-1)  مثالی از پیدا کردن سریع اسناد منطبق با پرس و جو

      جنگ

      2

      8

      15

      22

       

      68

      77

      سرد

      3

      8

       

      22

      56

      68

      92

      جنگ سرد

       

      8

       

      22

       

      68

       

       

      مرتب سازی اسناد به این شکل مشخص می­کند که کلمات \"جنگ\" و \"سرد\" در سه سند 8،22 و 68 قرار دارند. لیست اسنادی که شامل یک کلمه هستند لیست Posting نام دارند و جست و جو به دنبال اسنادی با 2 کلمه قطع کردن لیست Posting نام دارد. یک راه سریع برای قطع کردن 2 لیست Posting حرکت هم زمان در هر 2 لیست است. اگر یک لیست از سند 22 به 68 برود ، می­توانیم در لیست دیگر از اسناد دیگر رد شده و مستقیم به سند 68 برویم ]8[.